Инструмент исследования данных

Многие задачи в области исследования данных можно выполнять и в комерческих вычислительных средах, используя такие инструменты как Microsoft Excel, Statistica, STATA, IBM SPSS (каждый из них предназначен для своих вопросов в области статистических вычислений и обладает своими особенностями), однако языки программирования имеют ряд преимуществ по сравнению с упомянутыми коммерческими продуктами:

  1. Возможность загружать и работать с любыми типами данных и большим объемом данных.
  2. Автоматизация вычислений.
  3. Использование современных алгоритмов машинного обучения.
  4. Расширяемость путем подключения библиотек.
  5. Воспроизводимость результатов.
  6. Хорошие возможности визуализации.
  7. Кросс-платформенность.
  8. Работа с Git — распределенной системой управления версиями.
  9. Бесплатность.

В данном издании мы будем использовать язык программирования R, обладающий следующими преимуществами:

  1. Язык R изначально был создан как статистический язык программирования, следовательно в R реализованы практически все актуальные средства универсальных статистических вычислений, включая специфические алгоритмы для решения узкоспециализированных задач.

  2. В R реализованы одни из лучших в классе возможности для визулизации данных (например, с помощью библиотеки ggplot2 и ее расширений, rayshader и т.д.).

  3. Также, в R имеется возможность для составления как динамических отчетов (с помощью Shiny) в виде интерактивных веб-приложений, так и автоматизированных статических отчетов (с помощью bookdown, blogdown, quarto и т.д.) с сохранением результатов в различные форматы (например, HTML или Word).

  4. Язык R хорошо подходит для работы с географически распределенными данными (в библиотеках Leaflet, terra, stars и т.д.).

  5. В R есть сообщество, которое активно участвует в обсуждениях лучших практик, устранении неполадок, исправлении ошибок, тестировании и разработке языка.

  6. Современный R представляет собой техническую и социальную экосистему, обеспечивающая соответствующий уровень корректности и воспроизводимости, который вы получаете при последовательной реализации задач.